GeneDock HG 手册

Part 1 产品介绍

1. GeneDock HG 人全基因组标准化分析服务用途

GeneDock HG使用BWA、Sentieon软件，对全基因组数据，进行从fastq到vcf的分析（包含SNV和INDEL）。

Sentieon DNAseq 是一款类似于GATK (The Genome Analysis Toolkit) 的软件，主要用于二代测序数据的变异分析，包括SNV和INDEL。GeneDock的生信团队与数据计算团队共同努力，在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化，并对分析关键步骤做了分布式处理，在保证同GATK鉴定结果准确度一致的基础上，大大降低了用户的分析成本，缩短了运行时间。

Sentieon是一款类似于GATK (The Genome Analysis Toolkit) 的软件，主要用于二代测序数据的变异分析，包括SNP和INDEL。Benchmark测试结果 (https://peerj.com/preprints/1672/)显示，Sentieon软件在保证同GATK 3.3软件鉴定结果准确度一致的基础上，比GATK 3.3速度提升了约20倍（相同的硬件设备）。
且该软件获得
Winner, precisionFDA Consistency Challenge
Winner, precisionFDA Truth Challenge

2. 整体步骤：

整体可分为4个部分：

1. 序列比对（Mapping）：使用trimmomatic软件进行前处理，使用bwa mem进行比对，使用samtools对bam文件进行排序、格式转换等操作。

2. Bam文件前处理（Bam processing）：使用Sentieon软件做去重复序列（rmdup）、INDEL Realignment（realign）、Base quality score recalibration（bqsr）。

3. SNV和INDEL检测（SNP and INDEL calling）：使用Sentieon软件的HaplotypeCaller（hc）对SNP和INDEL同时进行检测。

4. 变异优化（Callset Refinement）：使用Sentieon软件的VQSR对varaint quality score做矫正（此步骤SNP和INDEL分别进行）。

5. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计：原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例，以及质量值和GC含量图等。比对后序列 (BAM)的统计包括：靶标区域所占比例、平均测序深度、重复区域比例、比对率、不同X数reads所占比例，以及目标区域测序深度图等，具体图表格式可以参考GeneDock 博客。

流程中步骤与GATK的Best Practices基本一致。

关于其中使用的knowsites输入文件也与GATK软件一致，可以参考这个链接。

【运行时间】

2016年12月29日genedock_wym测试45.00GB+44.94GB的fastq.gz文件。北京域：4.5小时。
由于全基因组原始数据较大，因此给数据分析带来了很大的挑战。
本工作流利用“fastq按行拆分、bam按染色体分组拆分”的原理，可以大大缩短运行时间。
本流程中bam文件的6个染色体分组，具体情况如下（以hg19的染色体名为例）：

第0组：chr1和chr2
第1组：chr3、chr4和chr5
第2组：chr6、chr7和chr8
第3组：chr9、chr10、chr11和chr12
第4组：chr13、chr14、chr15和chr16
第5组：chr17、chr18、chr19、chr20、chr21、chr22、chrX、chrY和chrMT

【准确性评估】

本流程步骤与GATK的GATK best practice基本一致，准确性评估请参考这个链接。

【注意事项】

本流程需要是双端测序。
流程中会使用GATK官方推荐的reference、knowsites输入文件，下载自Broad的FTP。
根据我们的经验，此全基因组流程中VQSR步骤要求至少100M的vcf输入，因此，我们建议全基因组的fastq.gz文件要在30G*2以上。10G*2的数据，请不要使用此工作流。
如果输入fq文件是多个lane的，请注意read1和read2的顺序要一一对应。

关于此流程有任何问题，请您随时与我们的工程师联系。

Part 2 GeneDock HG 操作教程

1.查看工作流详情：进入后台后，点击左侧工具栏中的工作流，在我的工作流标签中选择public，可以看到WGS_Germline_BWA_Sentieon_ContainRef_stat工作流，点击“详情”，查看该工作流的介绍，包括：【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等（如图1，图2）；

图-1

（图1）

（图2）

2.运行工作流：熟悉工作流的信息后，重复第一步骤，点击“运行”，进入到运行工作流界面（如图3）,为了方便后续查找任务，可以修改“任务名称”；
图-3

（图3）

3.设置输入文件：1、双端测序结果文件；2、adaptor序列文件。点击输入文件条中对应的文件夹符号，可以看到对应的数据选择框，其中最上边可以看到对应的文件格式（如fq,fastq,gz），在您需要的文件前面操作栏选择“选取”，然后就可在输入文件条中看到选定的输入文件，所有输入文件都选择完毕后，点击“下一步”（如图4、图5）；

（图4）

（图5）

4.设置输出文件：输出文件已经自动加载默认路径和文件名称，可以按照项目的目录情况自行修改，如无需要可以不做修改，所有输出文件都选择完毕后，点击“下一步”（如图6）；

（图6）

5.设置参数：系统中会绑定默认参数，且会标明参数属于的工具名称，如有需要修改参数，将鼠标放置参数名称上可查看参数的说明，选择参数后可直接修改（如图7）；

（图7）

6.预览及运行工作流：所有参数都设置完毕后，可以点击预览，确认前面的所有设置，确认好后点击‘运行任务’，开始运行工作流（如图8）；

（图8）

7.查看任务：几分钟后可以点击左侧工具栏中的“任务/报告”查看相应工作流的运行状态。为了方面查看任务，用户可以按照任务创建和运行状态等筛选。另外，对于不需要的任务，可以删除该任务。如（如图9）：

（图9）

点击所要查询的任务，可以查看“参数”，“日志”，“报告”以及“相关文件下载和预览”。点击“参数“ ，可以看到输入，输出和相关参数，（如图10）：

图10

（图10）

点击”日志“，可以看到每一步的完成状态。点击APP名称，可以看到部分输出日志，点击“下载日志”可以下载查看完整的输出日志（如图11）；

图11

（图11）

注：目前的工作流没有设置报告模板，因而报告不可查看，所以只能查看“相关文件下载和预览”。

点击“相关文件下载和预览”，可以看到任务的结果文件。对于文本文件和png等图文件，支持在线预览和下载，超过100M的文件，建议按照下文使用客户端下载（如图12）。

图12

（图12）

8.数据结果的查看和下载：点击左侧工具栏中的“数据”，选定对应的任务运行前设定的输出路径，进入任务输出路径后，可以看到结果文件，并且使用提供的完整路径，使用客户端进行下载（如图13，图14）。

图13

（图13）

（图14）

Part 3 参数解释

1. 工具：GD-toolkit_mapping_6-chromsome-groups_ContainRef

参数	软件	默认值	解释
sliding_window	Trimmomatic	4，15	Windows的size是4个碱基，其平均碱基质量小于15，则切除
leading	Trimmomatic	3	切除首端碱基质量小于3的碱基或者N
mark_short_split_hits_as_secondary	Bwa-mem	Yes	加入此参数用于将shorter split hits 标记为次优，有利于兼容 Picard、GATK
head_crop	Trimmomatic	0	切除reads开始指定数目碱基
crop	Trimmomatic	10000	保留reads到指定的长度
to_phred64	Trimmomatic	False	将碱基质量转换为pred64格式
illumina_clip	Trimmomatic	2,30,10	切除adapter序列：允许的最大mismatch数；palindrome模式下匹配碱基数阈值；simple模式下的匹配碱基数阈值
to_phred33	Trimmomatic	False	将碱基质量转换为pred33格式
read_group	Bwa-mem	sample	read group中sample名称，`@RG\tID:{{parameters.read_group}}\tSM:{{parameters.read_group}}\tPL:illumina\tLB:lib`
minlength	Trimmomatic	36	最小的reads长度
phred33	Trimmomatic	False	设置碱基的质量格式为phred33
trailing	Trimmomatic	3	切除尾端碱基质量小于指定值的碱基
refname	Bwa-mem	hg19	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP

2. 工具：samtools merge bam*（由于本流程分6份染色体，因此有6个bam0-5）

参数	软件	默认值	解释
sort_by_read_names	samtools merge	False	使输入的比对序列按照read的名字来排序，而不是染色体坐标
attach_rg_tag	samtools merge	False	给每个比对添加一个 RG 标签，标签的值是通过文件名来推测的
combine_PG	samtools merge	True	把 PG 标签和 colliding IDs 结合，而不是添加一个后缀去区分它们
combine_RG	samtools merge	True	把 RG 标签和 colliding IDs 结合，而不是添加一个后缀去区分它们

3. 工具：sentieon_metrics

参数	软件	默认值	解释
vqsr_omni	sentieon VQSR	1000G_omni2.5.hg19.sites.vcf	omni文件名称（可选1000G_omni2.5.hg19.sites.vcf或者1000G_omni2.5.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
thread	sentieon VQSR	8	线程数
vqsr_hapmap	sentieon VQSR	hapmap_3.3.hg19.sites.vcf	hapmap文件名称（可选hapmap_3.3.hg19.sites.vcf或者hapmap_3.3.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
refname	sentieon VQSR	hg19	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP
vqsr_Mills	sentieon VQSR	Mills_and_1000G_gold_standard.indels.hg19.sites.vcf	Mills文件名称（可选Mills_and_1000G_gold_standard.indels.hg19.sites.vcf或者Mills_and_1000G_gold_standard.indels.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
vqsr_1000G_indel	sentieon VQSR	1000G_phase1.indels.hg19.sites.vcf	1000G_indel文件名称（可选1000G_phase1.indels.hg19.sites.vcf或者1000G_phase1.indels.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
vqsr_1000G_snp	sentieon VQSR	1000G_phase1.snps.high_confidence.hg19.sites.vcf	1000G_snp文件名称（可选1000G_phase1.snps.high_confidence.hg19.sites.vcf或者1000G_phase1.snps.high_confidence.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
vqsr_dbsnp	sentieon VQSR	dbsnp_138.hg19.vcf	dbsnp文件名称（可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP1

4. 工具：sentieon_me_rm_indel_bqsr_hc（共6个）

参数	软件	默认值	解释
knowsites_dbsnp	sentieon variant caller	dbsnp_138.hg19.vcf	dbsnp文件名称（可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP
thread	sentieon	8	线程数
emit_conf	sentieon variant caller	30	在vcf结果文件中，低于指定值的位点则不进行报告
call_conf	sentieon variant caller	30	设定variant位点的置信阈值，低于该阈值则为low quality
refname	sentieon	hg19	流程中使用的reference（可选hg19或者b37），reference文献下载自Broad的FTP
knowsites_IndekRealigner	sentieon Indel realigner	Mills_and_1000G_gold_standard.indels.hg19.sites.vcf& 1000G_phase1.indels.hg19.sites.vcf	Indel realigner 步骤knowsites输入文件名称（可选hg19或者b37的相关文件，多个文件名称使用&连接），使用GATK官方推荐的knowsites输入文件，下载自Broad的FTP